Developing robots that are capable of many skills and generalization to unseen scenarios requires progress on two fronts: efficient collection of large and diverse datasets, and training of high-capacity policies on the collected data. While large datasets have propelled progress in other fields like computer vision and natural language processing, collecting data of comparable scale is particularly challenging for physical systems like robotics. In this work, we propose a framework to bridge this gap and better scale up robot learning, under the lens of multi-task, multi-scene robot manipulation in kitchen environments. Our framework, named CACTI, has four stages that separately handle data collection, data augmentation, visual representation learning, and imitation policy training. In the CACTI framework, we highlight the benefit of adapting state-of-the-art models for image generation as part of the augmentation stage, and the significant improvement of training efficiency by using pretrained out-of-domain visual representations at the compression stage. Experimentally, we demonstrate that 1) on a real robot setup, CACTI enables efficient training of a single policy capable of 10 manipulation tasks involving kitchen objects, and robust to varying layouts of distractor objects; 2) in a simulated kitchen environment, CACTI trains a single policy on 18 semantic tasks across up to 50 layout variations per task. The simulation task benchmark and augmented datasets in both real and simulated environments will be released to facilitate future research.
translated by 谷歌翻译
在这项工作中,我们解决了共同跟踪手对象姿势并从野外深度点云序列重建形状的具有挑战性,HandTrackNet,以估计框架间的手动运动。我们的HandTrackNet提出了一个新型的手姿势构成典型化模块,以简化跟踪任务,从而产生准确且稳健的手工关节跟踪。然后,我们的管道通过将预测的手关节转换为基于模板的参数手模型mano来重建全手。对于对象跟踪,我们设计了一个简单而有效的模块,该模块从第一帧估算对象SDF并执行基于优化的跟踪。最后,采用联合优化步骤执行联合手和物体推理,从而减轻了闭塞引起的歧义并进一步完善了手姿势。在训练过程中,整个管道仅看到纯粹的合成数据,这些数据与足够的变化并通过深度模拟合成,以易于概括。整个管道与概括差距有关,因此可以直接传输到真实的野外数据。我们在两个真实的手对象交互数据集上评估我们的方法,例如HO3D和DEXYCB,没有任何填充。我们的实验表明,所提出的方法显着优于先前基于深度的手和对象姿势估计和跟踪方法,以9 fps的帧速率运行。
translated by 谷歌翻译
对3D对象的触觉识别仍然是一项具有挑战性的任务。与2D形状相比,3D表面的复杂几何形状需要更丰富的触觉信号,更灵活的动作和更高级的编码技术。在这项工作中,我们提出了Tandem3D,该方法将共同训练框架应用于探索和决策的框架对3D对象识别具有触觉信号。从我们以前的工作开始,该工作引入了2D识别问题的共同训练范式,我们引入了许多进步,使我们能够扩展到3D。串联3D基于一个新颖的编码器,该编码器使用PointNet ++从触点位置和正态构建3D对象表示。此外,通过启用6DOF运动,Tandem3D以高效率探索并收集歧视性触摸信息。我们的方法完全在模拟中训练,并通过现实世界实验进行验证。与最先进的基线相比,串联3D在识别3D对象方面达到了更高的准确性和较低的动作,并且也证明对不同类型和数量的传感器噪声更为强大。视频可在https://jxu.ai/tandem3d上获得。
translated by 谷歌翻译
在许多图像分类任务中,诸如夹子之类的开放式摄影模型具有高精度。但是,在某些设置中,他们的零拍摄性能远非最佳。我们研究模型修补程序,目的是提高对特定任务的准确性,而不会在表现已经足够的任务上降低准确性。为了实现这一目标,我们引入了油漆,这是一种修补方法,该方法在微调之前使用模型的权重与要修补的任务进行微调后的权重。在零机夹的性能差的九个任务上,油漆可将精度提高15至60个百分点,同时将ImageNet上的精度保留在零拍模型的一个百分点之内。油漆还允许在多个任务上修补单个模型,并通过模型刻度进行改进。此外,我们确定了广泛转移的案例,即使任务不相交,对一个任务进行修补也会提高其他任务的准确性。最后,我们研究了超出常见基准的应用程序,例如计数或减少印刷攻击对剪辑的影响。我们的发现表明,可以扩展一组任务集,开放式摄影模型可实现高精度,而无需从头开始重新训练它们。
translated by 谷歌翻译
我们研究开放世界3D场景的理解,这是一个要求代理商的一系列任务,以开放式词汇和外域视觉输入来推理其3D环境,这是机器人在非结构化的3D世界中操作的关键技能。为此,我们提出了语义抽象(SEMABS),该框架将2D视觉模型(VLMS)具有新的3D空间功能,同时保持其零击的稳健性。我们使用从剪辑中提取的相关图实现了这种抽象,并以语义不平衡的方式学习了这些抽象的3D空间和几何推理技能。我们演示了SEMABS对两个开放世界3D场景的有用性理解任务:1)完成部分观察到的对象,2)从语言描述中定位隐藏的对象。实验表明,SEMABS可以从有限的3D合成数据进行训练中概括为新颖的词汇,材料/照明,类和域(即现实世界扫描)。代码和数据将在https://semantic-abstraction.cs.columbia.edu/上找到。
translated by 谷歌翻译
铰接的物体在日常生活中很丰富。发现它们的部位,关节和运动学对于机器人与这些物体相互作用至关重要。我们从Action(SFA)引入结构,该框架通过一系列推断相互作用来发现3D部分的几何形状和未看到的表达对象的关节参数。我们的主要见解是,应考虑构建3D明显的CAD模型的3D相互作用和感知,尤其是在训练过程中未见的类别的情况下。通过选择信息丰富的交互,SFA发现零件并揭示最初遮挡的表面,例如封闭抽屉的内部。通过在3D中汇总视觉观测,SFA可以准确段段多个部分,重建零件几何形状,并在规范坐标框架中渗透所有关节参数。我们的实验表明,在模拟中训练的单个SFA模型可以推广到具有未知运动结构和现实世界对象的许多看不见的对象类别。代码和数据将公开可用。
translated by 谷歌翻译
我们介绍了忙碌的板,这是一种受玩具启发的机器人学习环境,它利用一组铰接的对象和对象间功能关系,为机器人交互提供丰富的视觉反馈。基于这种环境,我们介绍了一个学习框架,即Busughbot,该框架允许代理商以综合和自欺欺人的方式共同获得三个基本功能(互动,推理和计划)。凭借繁忙板提供的丰富感官反馈,Busudbot首先学习了有效与环境互动的政策;然后,随着使用该策略收集的数据,Busybot的原因是通过因果发现网络对象间功能关系;最后,通过结合学习的交互政策和关系推理技能,代理可以执行目标条件的操纵任务。我们在模拟环境和现实环境中评估了忙碌的机器人,并验证了其看不见的对象和关系的概括性。视频可从https://youtu.be/ej98xbjz9ek获得。
translated by 谷歌翻译
我们研究气动非划和操纵(即吹),作为有效移动散射物体进入目标插座的一种手段。由于空气动力的混乱性质,吹吹控制器必须(i)不断适应其动作的意外变化,(ii)保持细粒度的控制,因为丝毫失误可能会导致很大的意外后果(例如,散射对象已经已经存在在一堆中)和(iii)推断远程计划(例如,将机器人移至战略性吹动地点)。我们在深度强化学习的背景下应对这些挑战,引入了空间动作地图框架的多频版本。这可以有效学习基于视觉的政策,这些政策有效地结合了高级计划和低级闭环控制,以进行动态移动操作。实验表明,我们的系统学会了对任务的有效行为,特别是证明吹吹以比推动更好的下游性能,并且我们的政策改善了基线的性能。此外,我们表明我们的系统自然会鼓励跨越低级细粒控制和高级计划的不同亚物质之间的新兴专业化。在配备微型气鼓的真实移动机器人上,我们表明我们的模拟训练策略很好地转移到了真实的环境中,并可以推广到新颖的物体。
translated by 谷歌翻译
For robots to be generally useful, they must be able to find arbitrary objects described by people (i.e., be language-driven) even without expensive navigation training on in-domain data (i.e., perform zero-shot inference). We explore these capabilities in a unified setting: language-driven zero-shot object navigation (L-ZSON). Inspired by the recent success of open-vocabulary models for image classification, we investigate a straightforward framework, CLIP on Wheels (CoW), to adapt open-vocabulary models to this task without fine-tuning. To better evaluate L-ZSON, we introduce the Pasture benchmark, which considers finding uncommon objects, objects described by spatial and appearance attributes, and hidden objects described relative to visible objects. We conduct an in-depth empirical study by directly deploying 21 CoW baselines across Habitat, RoboTHOR, and Pasture. In total, we evaluate over 90k navigation episodes and find that (1) CoW baselines often struggle to leverage language descriptions, but are proficient at finding uncommon objects. (2) A simple CoW, with CLIP-based object localization and classical exploration -- and no additional training -- matches the navigation efficiency of a state-of-the-art ZSON method trained for 500M steps on Habitat MP3D data. This same CoW provides a 15.6 percentage point improvement in success over a state-of-the-art RoboTHOR ZSON model.
translated by 谷歌翻译
受到人类在完全没有视力(例如从口袋中检索物体检索)进行复杂操作的能力的启发,机器人操纵场是有动力开发用于基于触觉对象的对象交互的新方法的。但是,触觉传感提出了一种主动感应方式的挑战:触摸传感器提供稀疏的本地数据,并且必须与有效的探索策略一起使用以收集信息。在这项工作中,我们专注于指导触觉探索的过程及其与任务相关的决策的相互作用。我们提出了串联(触觉探索和决策),这是一种结合决策,旨在学习有效的探索策略。我们的方法基于用于探索和歧视的单独但共同训练的模块。我们在触觉对象识别任务上演示了此方法,配备触摸传感器的机器人必须仅根据二进制触点信号来探索并识别已知集中的对象。与替代方法相比,串联以较少的作用实现了更高的精度,并且还显示出对传感器噪声更健壮。
translated by 谷歌翻译